AlphaFold2 + ZINC20,开启药筛新时代!
天下苦“蛋白质三维结构”久矣
图 1. 蛋白的一、二、三、四级结构
AlphaFold2 横空出世
2020 年末,AlphaFold2 (DeepMind 公司开发的 AI 程序) 在 CASP14 (第 14 届蛋白质结构预测比赛) 中将蛋白结构预测准确性从 40 分拔高到 92.4 分,实现了原子精度或者接近原子精度的结构预测,震惊生物界。
2021 年 7 月 16 日,DeepMind 团队在 Nature 上公布了 AlphaFold2 的源代码。仅一周后,DeepMind 团队再发 Nature,公布 AlphaFold 数据集,再次引爆科研圈!AlphaFold 数据集覆盖几乎整个人类蛋白质组 (98.5% 的所有人类蛋白),还包括大肠杆菌、果蝇、小鼠等 20 个科研常用生物的蛋白质组数据,蛋白质结构总数超过 35 万个!而且,数据集中 58% 的预测结构达到可信水平,其中更有 35.7% 达到高信度!
图 2. Alphafold 数据集网站
(免费开放网址:alphafold.ebi.ac.uk)
深究 AlphaFold2 计算模型发现,AlphaFold2 没有借鉴 AlphaFold 使用的神经网络类似 ResNet 的残差卷积网络,而是采用最近 AI 研究中兴起的 Transformer 架构,其中与文本类似的数据结构为氨基酸序列,通过多序列比对,把蛋白质的结构和生物信息整合到了深度学习算法中。从模型图中可知,AlphaFold2 与 AlphaFold 不同,并没有采用往常简化了的原子间距或者接触图,而是直接训练蛋白质结构的原子坐标,并使用机器学习方法,对几乎所有的蛋白质都预测出了正确的拓扑学的结构。统计 AlphaFold2 预测的结构发现:大约 2/3 的蛋白质预测精度达到了结构生物学实验的测量精度。
ZINC20 新增数十亿分子
ZINC 是一个汇总了化合物相关信息的公开数据库,是支持 2D、3D 化合物分子形式下载以及可进行快速分子查找、类似物搜索的服务网站,其分子量已经目前增长到近 20 亿,其中可购买的 13 亿化合物来自于 150 个公司共 310 个产品目录。尽管全球库存化合物的数量 (现在约为 1400 万) 每年仅增长百分之几,但按需定制化合物数量几乎呈指数增长,目前按需定制化合物的需求量已经增长至数百亿个分子,数年后将达到千亿级。ZINC20 (zinc20.docking.org) 新增百亿个按需定制化合物 (暂未添加到 ZINC 库中),这些化合物在骨架和分子多样性上都明显优于物理筛选数据库。
MCE 拥有专业的虚拟筛选团队、高性能的计算机服务器、高度标准的数据隐私管理,可提供专业的分子对接、虚拟筛选服务。更有 40 余种高通量化合物库,涵盖 600 万有现货、可重复供应、结构多样、具有类药性的化合物,任您挑选。最终项目报告包含背景调研、流程概述、结果分析,更有符合文章发表要求的 2D/3D 分子对接图。
相关产品 |
MCE Bioactive Compound Library MCE 活性化合物数据库,含有 11,000+ 已知高活性的化合物集合,结构多样,是老药新用、新适应症筛选的有效工具。国内现货供应。 |
基于 RO3 原则精选 14,000+ 片段化合物,用于 FBDD。国内现货供应。 |
包含 2,115,979 种具有独特结构和性质的化合物,数量大,结构多样性丰富。 |
包含 493,968 种类先导化合物,化合物的多官能团和类先导化合物的特性使 Advanced 库成为先导化合物发现的有效工具。 |
46,441 种最具最佳分子特性 (高 Fsp3、低 logP 和 MW ) 的化合物集合,精选库。 |
Enamine Discovery Diversity Sets (DDS) 专注于新型化合物结构式,适合新型化合物的随机筛选。DDS 库含有共 60,800 个新型化合物。Discovery Diversity Set 10 由高度特异且不重复的 10,560 个化合物组成。 |
Enamine Discovery Diversity Sets (DDS) 专注于新型化合物结构式,适合新型化合物的随机筛选。Discovery Diversity Set 50 是 Discovery Diversity Set 10 的补充,由 50,240 个化合物组成。 |
Chemspace Lead-Like Compound Library 来源于 Chemspace,包含 981,244 个类先导化合物,结构多样,适用于高通量筛选。 |
Chemspace Scaffold derived set Chemspace 骨架库,精心选择 3,373 个骨架,每个骨架 3 个化合物,在骨架基础上添加官能团,增加化合物空间结构覆盖率。 |
Chinese National Compound Library 国家化合物样品库有近 140 万个化合物,具有结构多样化、存储专业化、管理集中化、信息系统化和质控标准化等特点。 |
Life Chemicals 50K Diversity Library Life Chemicals 50K Diversity Library 是一个相当大的高度多样化的化合物库,由 50,240 个类先导物化合物组成。 |
Life Chemicals HTS Compound Collection 来源于 Life Chemicals,包含 494,471 个化合物,多样性丰富,适用于高通量筛选。 |
Maybridge Screening Collection 来源于 Maybridge,包含 53,000 种高度多样的类先导化合物,是药物筛选的有效工具。 |
来源于 Specs,包含 210,070 种化合物,多样性丰富,适用于高通量筛选。 |
注:
1、每个库中的分子数量实时变动,以上分子数量仅供参考,以官网实时数据为准。
2、更多数据库详见 MCE 官网。
参考文献
下滑查看更多 ↓
2. Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021:1-11.
3. Baek M, Dimaio F, Anishchenko I, et al. Accurate prediction of protein structures and interactions using a three-track neural network[J]. Science.
4. JIrwin J J, Tang K G, Young J, et al. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery [J]. Journal of Chemical Information and Modeling, 2020, 60, 12, 6065–6073.
5. Gorgulla C, Boeszoermenyi A, Wang ZF, et al. An open-source drug discovery platform enables ultra-large virtual screens. Nature. 2020; 580(7805):663-668.
精彩往期